查看原文
科技

【抄作业】回应《纽约时报》起诉,看OpenAI如何危机公关

创新天使团 创新天使团 2024-01-09

12 月下旬,《纽约时报》起诉OpenAI 及其密切合作者和投资者微软,指控其根据《纽约时报》的内容训练生成人工智能模型,违反了版权法。今天,OpenAI做出了公开回应。

先承认错误,摆明合作态度

  1. 表明对于新闻机构的积极合作态度,愿意共同探索新的合作机会
  2. 从法律角度说明训练是合法的,对保持美国科技竞争力是有利的!
  3. 原样输出训练内容是个技术上的 Bug
  4. 《纽约时报》自己说话也没说全部,因为他们提供证据的数据早就在各大网站被引用,他们采集证据的方式是通过特定的提示词诱导才能偶然复现的。

即便如此,我们还是愿意和新闻结构继续合作,帮助提升新闻能力!

重申合理使用的立场:

在今天下午 OpenAI 官方博客上发布的一封信中,该公司重申了其观点,即使用网络上的公开数据(包括《纽约时报》等文章)来训练人工智能模型是合理使用。换句话说,在创建像GPT-4和DALL-E 3这样的生成式人工智能系统时,OpenAI 认为它不是“从数十亿个艺术品、电子书、论文等示例中“学习”以生成类似人类的文本和图像”。不需要许可或以其他方式支付这些示例的费用——即使它从这些模型中赚钱。

OpenAI 写道:“我们认为这一原则对创造者公平,对创新者必要,对美国竞争力至关重要。”

OpenAI 还在其字母反流中解决了这种现象,即生成式 AI 模型在以某种方式提示时逐字(或接近逐字)输出训练数据,例如生成一张与著名摄影师拍摄的照片相同的照片。OpenAI 认为,使用来自单一来源(例如《纽约时报》)的训练数据不太可能发生反流,并让用户有责任“负责任地行动”并避免故意促使其模型反流。

“有趣的是,《纽约时报》[在其诉讼中引用]的反驳似乎来自多个第三方网站上大量传播的多年前的文章,”OpenAI 写道。“他们似乎故意操纵提示,通常包括冗长的文章摘录,以便让我们的模型反省。即使使用此类提示,我们的模型通常也不会像《纽约时报》暗示的那样表现,这表明他们要么指示模型反刍,要么从多次尝试中精心挑选示例。”

原文翻译:《OpenAI 与新闻业的互动》

我们致力于支持新闻行业,与新闻机构建立合作关系,并认为《纽约时报》提起的诉讼缺乏法律依据。

我们旨在开发 AI 工具,帮助人们解决那些难以触及的问题。全球各地的人们已经在利用我们的技术,以提升他们的日常生活质量。目前,有数以百万计的开发者和超过 92% 的《财富》500 强企业在使用我们的产品。

尽管我们对《纽约时报》诉讼中的指控持不同意见,但我们认为这是一个阐明我们业务、意图和技术开发方式的好机会。我们的立场可以概括为以下四点:

  1. 我们正在与新闻机构合作,共同探索新的合作机会。

  2. 使用 AI 进行数据训练在法律上属于合理使用,但我们提供选择退出的选项,因为这是合乎道德的做法。3、 技术上的“信息原样输出(Regurgitation)”现象较为罕见,我们正致力于将其完全消除。

  3. 《纽约时报》并没有呈现事情的全部面貌。

  4. 我们正在与新闻机构合作,共同探索新的合作机会

在我们的技术设计过程中,我们致力于支持新闻机构。我们已经与众多新闻机构以及行业领先组织如新闻/媒体联盟进行了会谈,共同探索合作机遇,讨论他们的关切,并提供相应的解决方案。我们的目标是学习、普及知识、倾听反馈,并根据这些反馈做出调整。

我们旨在支持一个健康的新闻生态系统,成为一个值得信赖的合作伙伴,创造互利共赢的机遇。为此,我们已经与多家新闻机构建立了合作关系,以实现以下目标:

部署我们的产品以辅助记者和编辑,帮助他们处理如分析大量公共记录和翻译报道等耗时任务。通过在额外的历史性、非公开内容上进行训练,增进我们的 AI 模型对世界的了解。在 ChatGPT 中展示带有归属的实时内容,为新闻出版商提供与读者建立联系的新途径。我们与美联社、阿克塞尔·施普林格、美国新闻项目和NYU的初步合作,展现了我们的合作方法和愿景。

我们的这些早期合作伙伴关系,不仅有助于新闻行业的发展,也展示了我们在技术创新方面的承诺,以及对支持新闻自由和信息传播的坚定立场。

虽然利用公共互联网材料训练 AI 模型属于合理使用,但我们提供退出机制,因为这是负责任的做法

根据长期而广泛接受的先例,利用公开可获得的互联网材料来训练人工智能模型被视为合理使用。我们认为这个原则对创作者公平,对创新者是必需的,同时对美国的竞争力至关重要。

将 AI 模型的训练视为合理使用的原则得到了广泛的支持,包括学术界、图书馆协会、民间社会团体、初创企业、领先的美国公司、创作者、作者等,他们最近向美国版权办公室提交了意见。其他地区和国家,如欧洲联盟、日本、新加坡 和以色列也制定了允许在版权内容上训练模型的法律,这对 AI 的创新、发展和投资大有裨益。

尽管如此,法律权利对我们来说并不如做一个良好公民那样重要。我们在 AI 行业中率先提供了一个简单的退出流程,供出版商选择(例如《纽约时报》在 2023 年 8 月选择使用),以防止我们的工具访问他们的网站。

我们正致力于消除“信息原样输出(Regurgitation)”这一罕见的错误

注:"Regurgitation" 指的是 AI 模型在生成输出时重复其在训练数据中已经接触过的信息或内容。这通常被视为一种错误或失败,因为理想中的 AI 应该能够产生新颖的、基于理解和推理的回答,而不是简单地复制和重复它在训练过程中所遇到的具体信息。这种现象在模型训练过程中遇到重复或过度代表的数据时更为常见。

我们设计并训练了模型,目的是让它们学习概念,进而能够应用这些概念解决新问题。

记忆问题是学习过程中较为罕见的一个弊端,我们正在努力改进。这个问题在特定内容在训练数据中重复出现时尤为明显,例如同一内容在多个公共网站上出现。因此,我们采取了措施来减少不经意的记忆,并防止模型输出中的内容重复。我们也期望用户能负责任地使用我们的技术;故意引导模型重复输出信息是不恰当的,这违反了我们的使用条款。

就像人类通过广泛学习来解决新问题一样,我们希望我们的 AI 模型能观察到世界各地的信息,包括来自不同语言、文化和行业的知识。由于模型是基于人类知识的大量集合进行学习,任何一个特定领域,比如新闻,都只是训练数据中的一小部分。同样,任何单一的数据来源,如《纽约时报》,对于模型的整体学习目标来说也不是特别关键。

纽约时报并未全面报道真相

我们与纽约时报的对话在 12 月 19 日的最后一次沟通中似乎还在顺利进行。谈判主要围绕 ChatGPT 实时展示新闻内容并标明来源的高价值合作,纽约时报将通过这种新方式与现有及潜在读者建立联系,而我们的用户也能够接触到他们的报道。我们曾向纽约时报明确表示,他们的内容像其他单一来源一样,并没有对我们现有模型的训练产生重大影响,对未来的训练也不会有显著贡献。然而,我们在阅读纽约时报的报道时才得知他们于 12 月 27 日对我们提起诉讼,这让我们感到意外和失望。

在此期间,纽约时报曾提到发现一些内容被重复引用,但他们一直拒绝提供任何具体案例,尽管我们已承诺调查并解决任何相关问题。我们一直严肃对待这一问题,例如在 7 月份,我们得知 ChatGPT 功能可能意外复制实时新闻内容后,我们立即关闭了该功能。

有趣的是,纽约时报所指的重复内容似乎来自多年前的文章,这些文章已在多个 第三方-网站 上广为流传。看来他们故意设置特定的提示语,常包含文章的长篇摘录,以引诱我们的模型进行复述。即便在使用这样的提示语下,我们的模型通常不会如纽约时报所言那样反应,这表明他们可能是指导模型复述或从众多尝试中挑选示例。

不管他们怎么说,这种误用并非典型或被允许的用户行为,也不能代替纽约时报的内容。无论如何,我们正在不断提高系统对防范敌意攻击和复述训练数据的抵抗力,在最新的模型中已经取得了显著进展。

我们认为纽约时报的诉讼毫无依据。尽管如此,我们仍期待与纽约时报建立建设性的合作关系,并尊重其拥有超过 60 年历史的报道,其中包括报道第一个运行中的神经网络和捍卫第一修正案自由的长期传统。

我们期待与新闻机构继续合作,帮助他们利用 AI 的变革潜力,提升制作优质新闻的能力。

更多AI创业公司面临诉讼

OpenAI 做出回应之际,围绕生成式人工智能的版权争论正值白热化。

在本周发表在 IEEE Spectrum 上的一篇文章中,著名人工智能评论家加里·马库斯 (Gary Marcus) 和视觉效果艺术家里德·索森 (Reid Southen) 展示了包括 DALL-E 3 在内的人工智能系统如何在没有明确提示的情况下反刍数据——这使得 OpenAI 声称反之则不太可信。事实上,Marcus 和 Southen 在他们的文章中提到了《纽约时报》的诉讼,并指出《纽约时报》只需给出《纽约时报》故事的前几个字,就能从 OpenAI 的模型中引发“抄袭”反应。

《纽约时报》是最新一家起诉 OpenAI 的版权所有者,认为 OpenAI 明显违反了知识产权法。

女演员莎拉·西尔弗曼 (Sarah Silverman) 在 7 月份加入了两起诉讼,指控 Meta 和 OpenAI“摄取”西尔弗曼的回忆录来训练他们的人工智能模型。在另一起诉讼中,包括乔纳森·弗兰岑 (Jonathan Franzen) 和约翰·格里沙姆 (John Grisham) 在内的数千名小说家声称,OpenAI 在未经他们许可或不知情的情况下将他们的作品作为训练数据。一些程序员正在就Copilot (一种人工智能驱动的代码生成工具)对微软、OpenAI 和 GitHub 提起诉讼,原告称该工具是使用他们受 IP 保护的代码开发的。

一些新闻媒体没有在法庭上与生成人工智能供应商对抗,而是选择与他们签署许可协议。美联社于 7 月与 OpenAI达成了 一项协议,拥有 Politico 和 Business Insider 的德国出版商 Axel Springer 于 12 月也达成了同样的协议。OpenAI 还与美国新闻项目和纽约大学达成了协议。

但支出往往很小。据The Information 报道,OpenAI 的年收入据称徘徊在 16 亿美元左右,每年提供 100 万至 500 万美元的版权新闻文章授权来训练其 AI 模型。

直到最近,《纽约时报》也一直在与 OpenAI 进行对话,以建立“高价值”合作伙伴关系,涉及在 OpenAI 的人工智能聊天机器人 ChatGPT 中“实时显示”其品牌。但据 OpenAI 称,讨论在 12 月中旬破裂。

无论如何,公众可能会站在出版商一边。独立智库人工智能政策研究所最近的一项民意调查显示,当获悉《纽约时报》针对 OpenAI 提起诉讼的细节时,59% 的受访者同意,不应允许人工智能公司使用出版商内容来训练模型,而70%的受访者表示,如果公司想在模型培训中使用受版权保护的材料,则应向网点进行补偿。

参考

TC报道:https://techcrunch.com/2024/01/08/openai-claims-ny-times-copyright-lawsuit-is-without-merit/ 

OpenAI声明原文: https://openai.com/blog/openai-and-journalism 

宝玉中文翻译:https://twitter.com/dotey/status/1744476630184013918

AGI前夜社区(AGI360)

AGI前夜社区 (https://agi360.xyz),💕 助推小而美的AI创新实践,让更多创新者把握AI时代机遇

申请加入请联系社区助理:微信号:hidao2

主题社区

关于创新天使团


继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存